Skip to main content

知识库管理与文档维护

知识库管理

在 SenseFLow 首页工作台中,点击顶部的 “知识库” tab 页,选择需要管理的知识库,轻点左侧导航中的设置进行调整。你可以调整知识库名称、描述、Embedding 模型和检索设置。

image.png

知识库名称,用于区分不同的知识库。

知识库描述,用于描述知识库内文档代表的信息。

Embedding 模型, 修改知识库的嵌入模型,修改 Embedding 模型将对知识库内的所有文档重新嵌入,原先的嵌入将会被删除。

检索设置,详细说明请参考文档。


维护知识库中的文本

添加文档

知识库(Knowledge)是一些文档(Documents)的集合。文档可以由开发者或运营人员上传 。

点击 「知识库」 > 「文档列表 ,然后轻点 「 添加文件 」,即可在已创建的知识库内上传新的文档。

image.png


禁用或归档文档

禁用:知识库支持将暂时不想被索引的文档或分段进行禁用,在知识库文档列表,点击禁用按钮,则文档被禁用;在文档详情中考研禁用某个分段,禁用的分段将不会被索引。禁用的文档点击启用,可以取消禁用。

归档:一些不再使用的旧文档数据,如果不想删除可以将它进行归档,归档后的数据就只能查看或删除,不可以进行编辑。在知识库文档列表,点击归档按钮,则文档被归档,也可以在文档详情,归档文档。归档的文档将不会被索引。归档的文档也可以点击撤销归档。

查看文本分段

知识库内已上传的每个文档都会以文本分段(Chunks)的形式进行存储,你可以在分段列表内查看每一个分段的具体文本内容。

image.png


检查分段质量

文档分段对于知识库应用的问答效果有明显影响,在将知识库与应用关联之前,建议人工检查分段质量。

通过字符长度、标识符或者 NLP 语义分段等机器自动化的分段方式虽然能够显著减少大规模文本分段的工作量,但分段质量与不同文档格式的文本结构、前后文的语义联系都有关系,通过人工检查和订正可以有效弥补机器分段在语义识别方面的缺点。

检查分段质量时,一般需要关注以下几种情况:

  • 过短的文本分段,导致语义缺失;

image.png

  • 过长的文本分段,导致语义噪音影响匹配准确性;

过长的文本分段(目前无法截图)

https://docs.dify.ai/~gitbook/image?url=https%3A%2F%2F1288284732-files.gitbook.io%2F%7E%2Ffiles%2Fv0%2Fb%2Fgitbook-x-prod.appspot.com%2Fo%2Fspaces%252FCdDIVDY6AtAz028MFT4d%252Fuploads%252FLGzuDVIKcOdwBO4gWcHa%252Fimage.png%3Falt%3Dmedia%26token%3D0be00a02-2670-4924-98ae-1f896e5523f4&width=768&dpr=4&quality=100&sign=da2af5c7&sv=2

  • 明显的语义截断,在使用最大分段长度限制时会出现强制性的语义截断,导致召回时缺失内容;

明显的语义截断(目前无法截图)

https://docs.dify.ai/~gitbook/image?url=https%3A%2F%2F1288284732-files.gitbook.io%2F%7E%2Ffiles%2Fv0%2Fb%2Fgitbook-x-prod.appspot.com%2Fo%2Fspaces%252FCdDIVDY6AtAz028MFT4d%252Fuploads%252F1fNAKKl3MkLd5vbRkZUG%252Fimage.png%3Falt%3Dmedia%26token%3Da2ff9c05-df49-4725-a78f-b2e0d3f82d5e&width=768&dpr=4&quality=100&sign=440936aa&sv=2


添加文本分段

在分段列表内点击 「 添加分段 」 ,可以在文档内自行添加一个或批量添加多个自定义分段。

image.png

批量添加分段时,你需要先下载 CSV 格式的分段上传模板,并按照模板格式在 Excel 内编辑所有的分段内容,再将 CSV 文件保存后上传。

image.png


编辑文本分段

在分段列表内,你可以对已添加的分段内容直接进行编辑修改。包括分段的文本内容和关键词。

编辑文档分段 (目前这个图无法编辑需要修改截图

image.png